众数 (统计学) – 简单教程
作者:Ruben Geert van den Berg,归类于 统计学 A-Z
某个变量的众数 (mode) 是指该变量中出现频率最高的值。
- 连续变量的众数 (Mode for Continuous Variable)
- 双峰分布 (Bimodal Distributions)
- 在 SPSS 中寻找众数 (Finding Modes in SPSS)
- 关于 Excel 中众数的警告 (Warning About Modes in Excel)
例子
一个班级的 15 名学生在一个学年参加了 8 次考试。每次考试的分数是正确答案的数量。由此获得的数据在这个 Googlesheet 中,部分数据如下所示。
下图所示的条形图可视化了考试 1 的频率分布:对于每个分数,它显示了获得该分数的学生人数。缺席的分数(例如 25 和 26 分)根本没有出现。
这个变量的众数 (mode) 是 18 分:它是唯一出现 3 次的值。所有其他分数只出现一次或两次。
连续变量的众数 (Mode for Continuous Variable)
对于连续变量,众数通常指的是具有最高频率的_值范围_。例如,我们收集了 N = 356 只鸡的体重(以克为单位)。下图所示的条形图显示了该变量的频率分布。
严格来说,这个变量有大约 15 个众数,这些都是出现两次的重量(以克为单位)。然而,这并没有给我们任何启发。问题在于,几乎每只鸡都有一个不同的_精确_重量(以克为单位)。解决这个问题的方法是检查固定宽度的重量范围,而不是精确的重量。这些重量范围的频率如下图所示的直方图。
我们为该图表选择了 150 克的组距 (bin width)。通过这样做,众数 (mode) 是从 1600 克到 1750 克的重量范围,观察到大约有 37 只鸡的体重在这个范围内。请记住,这里的组距是任意的:我们可以选择不同的组距,这将导致不同的众数。
双峰分布 (Bimodal Distributions)
双峰分布 (bimodal distribution) 是一种具有 2 个众数的频率分布。 这个 Googlesheet 中的考试 3 就是一个例子,其频率分布如下图所示。18 分和 24 分都出现了 3 次。所有其他分数都具有较低的频率。
对于连续变量,双峰分布是指具有 2 个“清晰峰值”的频率分布,这些峰值不一定同样高。大多数分析师都会同意,我们之前看到的鸡的直方图清楚地显示了双峰分布。然而,在许多情况下,构成“清晰峰值”的内容相当主观,并且还取决于所选择的组距。
在 SPSS 中寻找众数 (Finding Modes in SPSS)
您可以在 SPSS 中通过 A nalyze (分析) D e scriptive statistics (描述性统计)
F requencies (频率) 中找到众数,如下图所示。如果您想尝试一下,请使用 exams.sav。
输出(如下所示)的好处是,如果变量有多个众数,SPSS 会警告您。如果任何变量有多个众数,找到这些众数的最快方法是在这些变量上运行条形图。
关于 Excel 中众数的警告 (Warning About Modes in Excel)
要在 Excel 、 OpenOffice 和 Googlesheets 中查找众数,请在某个单元格中键入类似 =MODE(A2:A16)
的内容,并指定要查找众数的单元格的正确范围。如果变量只有一个众数,这可以正常工作。但是,如果存在多个众数,Excel 不会 警告您,其他电子表格编辑器也不会。那么,您如何知道变量是否有多个众数呢?可悲的是,最不笨拙的方法可能是创建一个排序的频率表,如下所示。这种乏味方法的需求使得 MODE 函数完全没有价值。
幸运的是,SPSS 和 JASP 会 警告多个众数。这允许您在单个表格中检查一个或多个变量——这是一种简单而快速的方法。